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摘要 : 【 目的 ] 针对 中 文 在 线 评论 产品 特征 与 观点 抽取 问题 ， 提出 一 种 基于 置信 度 排序 模型 的 抽取 方法 。[ 方法 】 
在 改进 HITS 算法 基础 上 ,综合 考虑 候选 特征 观点 词 的 关联 关系 和 语义 关系 构建 置信 和 度 排序 模型 ， 提 取 并 过 滤 特 
征 观点 词 。[ 结果 】 和 基准 模型 相 比 ， 本 文 方法 对 中 文 语 料 的 产品 特征 和 观点 抽取 能 达到 较 高 准确 率 和 召回 率 。 
【 局限 】 仅 针对 产品 显 性 特征 抽取 , 没有 考虑 隐 性 特征 的 识别 与 抽取 。[ 结论 】 利 用 特征 词 和 观点 词 的 双向 增强 
关系 和 语义 关系 , 可 以 有 效 抽取 产品 特征 观点 ; 情感 极 性 过 滤 对 提升 观点 词 抽取 准确 率 有 较 大 作用 。 


关键 词 : 置信 度 排 序 HITS 关联 关系 
分 类 号 : G350 


语义 关系 


双向 增强 关系 


特征 观点 抽取 


了 中 


1 3 引 


互联 网 环境 日 益 成 熟 , 越 来 越 多 的 消费 者 倾向 于 
通过 电 商 网 站 进行 购物 并 点 评 ,由 此 产生 了 数据 量 庞 
大 的 在 线 评论 。 研 究 表明 ,从 大 量 的 点 评 信息 中 提取 
针对 产品 特征 的 评价 观点 尤其 重要 ， 它 不 仅 便 于 消费 
者 迅速 了 解 产 品 各 方面 性 能 ,判断 产品 质量 ; 更 为 企 
业 提 供 了 产品 设计 的 依据 和 其 他 企业 的 竞争 情报 , 促 
进 企 业 竞争 力 的 提升 中 可见, 抽取 评论 中 的 产品 特征 
及 其 评价 观点 具有 重要 的 商业 价值 ， 因 而 成 为 情感 分 
析 领 域 关键 的 研究 任务 之 一 。 

常见 的 用 户 评论 中 (如 外 观 非 常 交 过 ， 外观 很 未 
锣 -. 速度 不 尔 。),， 观 点 词 通常 出 现在 特征 词 的 附近 , 用 
来 描述 或 修饰 产品 特征 ,两 者 具有 较 强 的 关联 性 。 假 
设 名 词 为 候选 特征 词 , 形容 词 为 候选 观点 词 , 不 难 发 
现 ,， 一 个 可 以 被 越 多 不 同 的 观点 词 修饰 的 名 词 ， 越 有 
可 能 是 特征 词 (如 “外 观 ”)。 相似 地 , 一 个 可 以 修饰 越 多 
不 同 特征 词 的 形容 词 , 越 有 可 能 是 观点 词 (如 “不 错 ”)。 
这 种 候选 特征 词 和 候选 观点 词 之 间 相 互 影响 的 关系 ， 
称 为 双向 增强 关系 。 利 用 这 一 关系 ,文献 [2] 和 文献 [3] 
引入 排序 算法 , 计算 候选 词 的 置信 和 度 , 最 后 抽取 置信 


度 达 到 阔 值 的 候选 词 作为 正确 的 特征 词 或 观点 词 , 取 
得 了 一 定 效果 ,然而 , 现 有 的 相关 研究 中 , 常常 忽视 了 
词语 的 语义 关系 和 关联 关系 对 于 抽取 结果 的 影响 作 
用 ,例如 ， 如果 确定 “外 观 ” 是 正确 的 特征 词 , 那么 候选 
集中 与 “外 观 ” 语 义 相近 的 其 他 词语 “外 形 ”“ 外 表 ” 等 ， 
也 更 可 能 成 为 特征 词 。 不 仅 如 此 , 经 常 一 起 搭配 出 现 
的 名 词 和 形容 词 往往 更 有 可 能 成 为 正确 的 特征 观点 词 
(如 “价格 "和 “ 贵 ”)。 

为 此 , 本文 基 于 HITS 排序 算法 , 综合 考虑 候选 特 
征 观点 词 对 的 关联 关系 ,以 及 特征 词 或 观点 词 间 的 语 
义 关系 , 构建 置信 度 排序 模型 抽取 产品 特征 及 观点 。 
同时 , 还 采取 不 同 的 策略 对 特征 词 和 观点 词 进行 过 滤 ， 
取得 了 较 好 的 实验 结果 。 


2 ”相关 文献 综述 


目前 产品 特征 及 观点 的 抽取 方法 主要 分 为 监督 学 
习 方 法 和 非 监督 学 习 方法 。 

(1) 监督 学 习 方法 

Jin 等 站 采用 HMMs 模型 识别 特征 词 观点 词 及 观 
点 极 性 。Li 等 中 整合 了 Skip-CRF 和 Tree-CRF 提取 评 
价 对 象 。Wu 等 四 采用 SVM 分 类 器 , 根据 短语 依存 关 
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用 户 在 线 评 论 的 情感 分 析 ”( 项 目 编 号 :70971099) 和 国家 自然 科学 基金 
目 “ 在 线 评论 对 商家 业绩 的 影响 研究 :情感 分 析 的 视角 ”( 项 目 编号 :71371144) 的 研究 成 果 之 一 。 
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系 发 现 评价 对 象 和 评价 词语 之 间 的 关系 。 由 于 监督 学 ” 取 观 点 词 、 观 点 词 抽取 特征 词 的 双向 传播 方式 ,迭代 
习 方 法 依赖 于 大 量 的 人 工 标注 工作 的 准确 性 ,， 且 领域 ”抽取 更 多 新 的 特征 词 和 观点 词 , 直至 结束 。 实 验 结 

独立 性 较 差 , 在 实际 领域 中 的 应 用 仍 存在 诸多 限制 。 取得 了 较 高 的 召回 率 , 但 随 着 迭代 的 深入 产生 了 较 多 
近年 来 , 学 者 们 积极 探索 各 种 非 监 督学 习 方法 抽取 特 ”噪音 词 ， 准 确 率 不 高 .还 有 一 些 学 者 基于 排序 算法 , 利 


征 观点 词 。 用 特征 指示 词 和 特征 词 之 间 的 双向 增强 关系 迭代 计算 ， 
(2) 非 监督 学 习 方法 最 后 抽取 出 置信 度 高 的 候选 特征 词 作为 正确 的 产品 特 
主流 方法 包括 主题 建 模 方法 和 语 料 统计 方法 。 征 和 观点 词 ,取得 了 较 好 的 效果 , 如 Zhang 等 、 郡 亚 


Titov 等 中 提出 多 粒度 主题 模型 ， 应 用 于 文档 中 连 。 辉 ”、Liu 等 “。 但 这 些 研究 中 , 都 是 以 等 权重 方式 处 
续 的 数 条 句子 ， 得 到 按 主 题 自动 聚 类 的 特征 词 和 观点 “， 理 特 征 指示 词 和 候选 特征 词 之 间 的 关系 ,没有 考虑 两 
词 及 其 多 项 分 布 。Zhao 等 8 提出 MaxEnt-LDA 为 产品 ” 者 关系 的 强度 ,也 没有 考虑 候选 词 之 间 的 语义 相似 性 
特征 及 观点 词 联合 建 模 ,并 使 用 句法 特征 辅助 两 者 分 。 对 其 置信 和 度 的 影响 。 

离 。 主 题 模 型 可 以 用 于 多 种 信息 建 模 , 扩展 性 强 , 但 在 本 文 在 生成 候选 特征 词 和 候选 观点 词 二 分 图 基础 
实际 中 ,实验 结果 并 不 稳定 ,并 且 很 难 发 现在 局 部 文 ” 上, 综合 考虑 关联 关系 和 语义 关系 , 利用 改进 HITS 算 
档 中 频繁 出 现 的 特征 词 。 因 此 ， 一些 学 者 倾向 于 语 料 ”法 构建 了 置信 度 计 算 模 型 ， 通 过 置信 和 度 排 序 联合 抽取 
统计 方法 获取 特征 观点 词 。 Hu 等 中 利用 关联 规则 算法 ， ”特征 词 和 观点 词 。 

抽取 名 词 中 的 频繁 项 集 作为 候选 特征 词 ,并 利用 最 近 。 3 基于 改进 HITS 的 特征 观点 置信 度 排序 
邻 原则 抽取 距离 频繁 名 词 或 名 词 短 语 最 近 的 形容 词 作 模型 

为 观点 词 。 这 种 方法 将 名 词 作为 候选 特征 词 ， 容 易 产 
生 大 量 无 关 特 征 词 。 后 续 , Aravindan 等 (采用 近 领 规 3.1 研究 概述 

则 (Compactness Rule) 和 独立 支持 度 (P-Support) 规 则 进 本 文 研究 框架 主要 任务 包括 : 候选 对 象 提取 、 二 
行 过 滤 改 进 ,Qiu 等 中 .Hai 等 (3 基于 双向 传播 算法 , 利 ”分 图 构建 及 关系 计算 、 置 信 度 计算 模型 构建 、 实 验 结 
用 特征 观点 词 的 依存 关系 或 关联 关系 , 通过 特征 词 抽 。 果 及 分 析 评 价 等 部 分 如 图 1 所 示 : 


7- -~~ 


7 人 人 了 二 分 图 构建 及 f 
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> > : 
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3.2 ”候选 特征 观点 词 提 取 成 观点 词 的 抽取 错误 。 因 此 , 综合 考虑 词语 词性 和 词 
相关 研究 通常 选择 语 料 中 的 名 词 作为 候选 特征 词 ， 语 依 存 关 系 两 方面 因素 , 对 句子 按 “ 先 特征 、 后 观点 ” 
形容 词 和 动词 作为 候选 观点 词 由 趾 。 但 通过 观察 语 料 ” ”的 分 步 策略 抽取 候选 特征 观点 词 。 
会 发 现 , 动词 也 经 常 作为 特征 词 或 复合 特征 词 出 现 ， 利用 依存 句法 分 析 器 可 以 同时 得 到 句子 中 词语 的 
例如 , 在 手机 评论 中 会 出 现 “ 通 话 v 质量 n 很 好 , 送 货 ” 词性 及 词语 间 搭 配 关系 , 图 2 所 示 为 利用 哈尔滨 工业 
Y 也 很 及 时 , 操作 v 简单 "类似 评论 ， 如 果 直 接 抽取 名 ”大 学 语言 云 的 句法 解析 结果 。 
词 作 为 候选 特征 词 , 会 将 原本 的 复合 特征 词 拆 解 为 单 使 用 一 个 三 元 组 Triple < A _pos,B_pos,dp > 表 
个 特征 词 和 单个 观点 词 , 造成 特征 语义 表达 不 准确 ， ” 示 词 语词 性 及 依存 关系 对 ，A _pos 表示 词语 A 及 其 
而 直接 抽取 动词 作为 候选 观点 词 , 会 造成 将 特征 词 当 ”对 应 词性 ，dp 表示 词语 A 和 B 的 依存 关系 , 按 以 下 规 
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图 2 句法 解析 结果 1 
则 进行 抽取 : 

(1) 若 Triplee{<A_n,B_n,ATT>,<A _n,B_v, 
ATT >,<A_v,B_n,ATT >}, 则 A 和 B 作 为 一 个 复合 
特征 词 抽取 。 例 如 , 对 于 词 对 依存 关系 < 外 观 _n, 设 计 
_n,ATT >，< 通 话 _v, 质量 _n,ATT > ， 从 中 抽取 复 
合 特 征 词 “ 外 观 设 计 ”、“ 通 话 质量 ”。 

(2) 知 Triples{<A vB a,SBV >,<A _v,B_a, 
CMP >,<A_v,B_a,VOB >}, 则 A 作为 动词 特征 词 
抽取 , 例如 ,对 于 词 对 依存 关系 < 操作 _v, 简单 
_a,SBV >，< 显 示 _v, 不 错 _a,VOB >, 从 中 抽取 动 
词 特征 词 “ 操 作 ” “显示 ”。 

(3) 对 于 句子 中 的 其 他 词语 ， 如果 不 满足 规则 (]) 
和 规则 (2), 则 仅 按 词性 进行 抽取 , 将 名 词 作为 候选 特 
征 词 , 形容词 和 动词 作为 候选 观点 词 。 最 后 , 生成 所 有 
候选 特征 词 的 集合 工 生成 所 有 观点 词 的 集合 O。 

3.3 ”特征 观点 二 分 图 构建 

在 以 句子 为 片段 提取 了 候选 特征 词 和 候选 观点 词 
后 , 接 下 来 建立 两 者 的 二 分 图 。 根 据 相 关 文献 ， 可 以 构 
建 有 向 二 分 图 中, 也 可 以 构建 无 向 二 分 图 门 。 考 虑 到 用 
户 在 发 表 评 论 时 是 以 产品 特征 为 目标 对 象 发 表 评 价 观 
点 , 观点 词 是 特征 词 的 重要 指示 词 外 因而, 本 文 建立 
一 个 候选 观点 词 和 候选 特征 词 之 间 的 有 向 二 分 图 。 为 
了 便于 说 明 二 分 图 的 构建 过 程 ， 以 手机 领域 的 三 条 评 
论 为 例 : 

外形 小 功 通话 质量 和 做 工 痢 不 矢 。 

@@ 外 形 非常 从 巧 套 不 价格 也 借入 。 

@@ 外 形 特别 从 葬 非常 适 谷 女孩 子 。 另 外 ， 价 格 也 很 
大话 。 

例如 , “外形 ”、“ 通 话 质量 ”等 作为 候选 特征 词 抽取 
出 来 , “小 巧 * 和 “不 错 ” 等 作为 候选 观点 词 抽取 出 来 , 每 
条 评论 片段 内 , 将 所 有 候选 特征 词 和 所 有 候选 观点 词 
连接 起 来 , 连接 方向 为 候选 观点 词 指向 候选 特征 词 ， 
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则 建立 的 二 分 图 如 图 3 所 示 : 
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图 3 候选 观点 词 与 候选 特征 词 的 二 分 图 

3.4 关联 关系 计算 

上 节 构 建 的 网 络 图 没有 体现 两 个 连接 节点 之 间 的 
关联 程度 的 高 低 。 如 “外 形 ” 与“ 小巧" 共 现 3 次 , 而 “外 
形 * 和 “轻便 " 共 现 1 次 ， 显 然 前 者 的 关联 强度 更 大 ， 
此 本 文 考查 共 现 的 候选 特征 观点 词 之 间 的 连接 强度 。 
在 以 “ 词 共 现 ” 为 基础 的 关联 度 计算 中 , 相关 研究 一 般 
采用 互信 息 法 (Mutual Information，MI) 度 量 中 ,因此 
本 文采 用 互信 息 值 作为 候选 特征 词 和 候选 观点 词 之 间 
的 关联 度 , 设 候 选 特征 词 为 t, 候选 观点 词 为 o， 则 两 者 
的 关联 度 计算 方法 如 公式 (所 示 。 和 前 文 一 致 ， 仍 采 
用 以 评论 片段 为 单位 进行 关联 度 计算 。 

Pr(t,o) Pr(—t, 0) 

Pr(t) Pr(o) Pr(—t) Pr(o) 


I(t,o)=Pr(t,o)xlog 


+ Pr(—t,0)xlog 


Pr(t, 一 0) 
Pr(t) Pr( 一 0) 


Pr(—t,—0) 
Pr(—t) Pr(—0) 
(GD 
其 中 ，I(t,o) 表示 词 t 和 词 o 的 关联 度 ，Pr(t) 和 
Pr(o) 分 别 表 示 词 t 和 词 o 出 现 的 概率 ，Pr(t,o) 表示 词 
t 和 词 o 在 语 料 中 联合 出 现 的 概率 ，Pr(-to) 和 
Pr(t, 一 0) 表示 词 t 和 词 o 仅 出 现 其 一 的 联合 概率 ， 
Pr(--t, 一 0) 表示 词 t 和 词 o 均 未 出 现 的 联合 概率 。 
3.5 语义 关系 计算 
语义 关系 即 词语 间 的 语义 相似 性 , 借鉴 文献 [13], 
利用 对 称 相 对 炉 (Symmetric Kullback-Leibler) 度 量词 
语 之 间 的 语义 相似 性 。 设 有 词语 wi,w;， 两 者 的 语义 
距离 计算 公式 如 下 : 


Dwisw) =7(KL(wi wi) + KLCwil wi) 


Pr(t,—0)xlog + Pr(—t,—0)xlog 


ly Jlog PELWi) 
= 2 Pll wlogp lw) + 


p(k|wj) 
p(k|wi) 


(2) 
Dipk lwi)log 


) 


KL(w:i|| wj) 即 Wi Wi 的 相对 焙 ， 表示 词 Wi,Wj 在 
z 个 主题 下 分 布 的 相 异 度 。 其 中 p(k|w;) 通过 贝 叶 斯 
公式 可 进一步 表示 为 : 


p(k | wi)=p(wilk) 2 G) 
p(wi) 


采用 LDA 主题 模型 估算 主题 k 的 分 布 p(k) 和 主 
题 k 下 词 wi; 的 分 布 p(w; |k)， 从 而 得 到 p(k |w;), 同 
理 估算 p(k | wj) 。 

对 于 词语 为 复合 词 的 情形 ， 则 分 别 计算 复合 词 内 
每 个 词语 与 目标 对 象 的 每 个 词语 的 相对 炉 ， 取 其 最 大 
值 进 行 计算 , 设 pi; 为 复合 词 ，q; 为 目标 对 象 ，wi,, 与 
wa 分别 对 应 pi，qi 内 的 单词 , 则 复合 词语 义 距离 计 
算 公 式 如 下 : 


1 
D(pi,qj) 二 max (KL(Wim | Win )+ max (KL(win | Wim))) 
2 Wim EPi» Win Eqj Win Eqj, Wim Epi 


(4) 
最 后 将 语义 距离 进行 归 一 化 , 得 到 语义 相似 性 值 
用 S 表示 wi,w; 的 语义 相似 性 ， 则 : 


SC) (5) 


D(wi, 
+e (Wi,wi) 


3.6 ”置信 和 度 排序 模型 

(1) 考虑 关联 关系 

由 于 候选 特征 词 与 其 所 关联 的 候选 观点 词 之 间 存 
在 双向 增强 关系 , 可 以 应 用 HITS 算法 迭代 计算 候选 
特征 词 和 候选 观点 词 的 置信 和 度 广 ]。 

为 此 , 在 候选 特征 观点 上 定义 二 分 有 向 图 G=(O,， 
T B), O 表示 候选 观点 词 集合 , T 表示 候选 特征 词 集合 ， 
E 表 示 O 指 向 T 的 边 集 合 , 用 M 表示 图 G 的 邻接 矩阵 ， 
由 于 本 文 算法 考虑 了 关联 强度 ， 因 而 需要 计算 边 权 
重 。 定 义 图 G 的 关联 强度 邻接 矩阵 M， 表 示 如 下 : 
人 if(0,t)eE (@) 


Meot = z 
0 otherwise 


其 中 , 矩阵 元 素 I(0,t) 的 取 值 由 公式 (1) 计 算得 出 。 
借鉴 文献 [2]， 用 集合 T 中 节点 t 的 Authority 值 表 
示 候 选 特征 词 的 置信 和 度 , 记 为 A(t), 集合 O 中 节点 o 
的 Hub 值 表 示 候 选 观点 词 的 置信 和 度 , 记 为 Ho), 则 AQ 
和 H(o) 的 计算 如 下 : 
A(t= 2 jes HCO) 0) 
H(oO= ,vs A (8) 
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公式 (7) 表 示 节 点 t 的 置信 和 度 由 指向 t 的 所 有 节点 o 
的 当前 置信 和 度 H(o) 值 之 和 决定 , 公式 (8) 表 示 节 点 o 的 
置信 和 度 由 o 指向 的 所 有 节点 的 当前 置信 和 度 AQ) 值 之 
和 决定 。 
用 向 量 A 表示 T 中 所 有 候选 特征 节点 的 置信 和 度 ， 
用 向 量 耳 表示 O 中 所 有 候选 观点 节点 的 置信 和 度 , 则 以 
和 矩阵 形式 描述 的 置信 度 计算 模型 为 : 
A=MoH (9) 
H=MoA (10) 
设 A 和 HH 的 初始 值 为 1 并 用 12 范式 规范 化 处 理 ， 
通过 迭代 计算 直至 算法 收敛 。 
(2) 考虑 关联 关系 和 语义 关系 
语义 相似 的 候选 词语 之 间 ， 其 置信 度 值 会 相互 增 
强 。 考 虑 候选 特征 词 (候选 观点 词 ) 间 的 语义 相似 性 作 
为 迭代 因子 , 构建 基于 关联 关系 和 语义 关系 的 综合 置 
信和 度 计算 模型 。 
利用 公式 (5), 分 别 构造 基于 候选 特征 词 的 语义 相 
似 度 邻 接 和 矩阵 Me 和 基于 候选 观点 词 的 语义 相似 度 邻 
接 和 矩阵 Mu。 其 中 : 


一 


Sti,t:; if(t,t;)e Tand t;#t. 

M = (ti 六 (ti i) 1 | (11) 
0 otherwise 
S(o;,0; if(0;,0;)e Oand o; 地 0; 

NM _[seuon irono 0 1 
0 otherwise 


和 矩阵 元 素 Me 和 Mo 的 取 值 由 公式 (5) 计 算得 到 。 
构造 包含 关联 关系 和 语义 关系 的 候选 特征 观点 对 
置信 和 度 计算 模型 ， 其 矩阵 形式 表示 如 下 : 
A= 入 ModIH+U- 和 ) MA (13) 
H= 入 MuA+(- 和 ) MooH (14) 
模型 表示 ， 候 选 特征 词 (候选 观点 词 ) 的 置信 和 度 由 
其 关联 的 候选 观点 词 (候选 特征 词 ) 和 其 语义 相近 的 候 
选 特征 词 (候选 观点 词 ) 的 置信 度 共同 决定 , 其中， 和 为 
调节 参数 。 和 迭代 运算 公式 (13)、 公 式 (14), 每 次 在 下 一 
次 迭代 前 , 向 量 A HE 值 均 用 工 2 范式 进行 规范 化 处 理 ， 
直至 算法 收敛 。 依 据 候 选 特征 观点 词 的 置信 和 度 值 排序 ， 
设置 闵 值 y, 和 yo， 分 别 抽取 大 于 阔 值 的 词语 作为 特征 
词 集 和 观点 词 集 。 
3.7 ”特征 观点 词 过 滤 
实验 发 现 , 通过 上 和 节 得 到 的 特征 观点 词 集合 中 ， 
还 会 存在 少量 泛 化 名 词 (如 “问题 "、“ 方 面 "等 ) 和 不 具有 
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明显 情感 极 性 的 动词 (打开 ”“ 看 到 ”等 ), 这 是 由 于 一 
些 频繁 出 现 的 非特 征 名 词 和 非 观 点 动词 存在 较 强 关联 
性 , 在 计算 结果 中 也 具有 较 高 置信 和 度 ， 因 而 ， 有 必要 
将 这 些 置 信和 度 高 、 但 却 不 是 抽取 对 象 的 词语 吻 除 。 为 
此 , 分别 对 特征 词 和 观点 词 进行 过 滤 。 

(1) 特征 词 过 滤 

特征 词 包括 通用 特征 词 和 领域 相关 特征 词 , 前 者 
指 不 依赖 于 特定 领域 的 产品 特征 ， 如 “价格 ”、“ 服 务 ” 
等 ,而 后 者 指 和 具体 产品 相关 的 特征 词 , 如 手机 领域 的 
“ 听 简 ”、“ 蓝 牙 ” 等 。 一 般 而 言 , 通用 特征 词类 目 和 词汇 
数量 较 少 , 适合 于 人 工 构 建 (3 为 此 ， 人 工 定义 价格 、 
服务 、 物 流 、 质 量 、 外 观 、 效 果 等 6 大 类 目 种 子 通用 特 
征 词 , 依据 同义词 词典 词 库 进 行 扩 展 。 通过 比 对 特征 词 
集 和 该 词 库 ， 出 现在 其 中 的 作为 通用 特征 词 抽取 。 

对 于 领域 相关 特征 词 ， 其 在 对 应 领域 中 出 现 的 概 
率 , 要 比 另外 产品 领域 中 出 现 的 概率 大 得 多 ,因此 可 以 
根据 特征 词 在 其 对 应 领域 和 另 一 不 相关 领域 中 出 现 的 
概率 差 值 判断 5 。 举 例 来 说 ,手机 评论 中 频繁 出 现 的 
“蓝牙 ”"、“ 通 话 声音 ”、“ 分 辩 率 ”等 , 不 会 出 现在 护肤 产 
品评 论 集 中 ， 而 “习惯 ?>、“ 情 况 ”"、“ 事 情 ”" 等 泛 化 词 在 两 
个 评论 集中 出 现 的 概率 则 类 似 。 因 此 , 对 于 特征 词 t 计 
算 特 征 词 在 两 个 评论 集 (D1, D;) 中 出 现 的 概率 差 值 , 将 大 
于 阔 值 6 的 词语 作为 领域 特征 词 抽取 出 来 , 如 下 所 示 : 

prob(t|D1)—prob(t|D,) 宇 0 (15) 

其 中 ，prob(t|D1) 、prob(t|D,) 代表 词 t 在 领域 相 
关 评 论 集 D1、 领 域 不 相关 评论 集 D; 中 出 现 的 概率 。 

(2) 观点 词 过滤 

观点 词 中 出 现 的 少量 不 具有 人 情感 极 性 的 词语 ， 可 
以 运用 情感 极 性 过 滤 方 法 去 除 其 中 不 具有 明显 极 性 的 
观点 词 。 相 关 文献 一 般 采 用 HowNet 词 库 及 词语 相似 
性 计算 方法 ,判断 观点 词 的 情感 极 性 。 然 而 HowNet 
的 词 库 范 围 有 限 , 许多 网 络 新 词 (如 “给 力 ” 等 ) 并 未 包 
含 其 中 , 对 于 这 类 HowNet 未 收录 的 观点 词 ， 本 文采 取 
统计 方法 判断 其 情感 极 性 。 具体 而 言 , 首先 构建 大 小 相 
同 的 讲义 基准 词 集 pos_seed 和 贬义 基准 词 集 neg_seed， 
利用 以 下 公式 判断 观点 词 是 否 具有 情感 极 性 : 

lpos_seed| Ineg _seed| 


Polarity(o) = > sim(Wi,0)— > 


i=1 j=l 


sim(wWi,0) (16) 
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其 中 ，sim(wi,0) 为 观点 词 与 襄 义 基准 词 集 的 语 
义 相似 度 ，sim(w ,o) 为 观点 词 与 贬义 基准 词 集 的 语 
义 相似 度 , 通过 HowNet 计算 , 若 Polarity(o) 的 绝对 值 
接近 于 0， 表 示 该 观点 词 的 情感 极 性 不 明显 ， 若 该 值 
显著 大 于 0, 则 该 观点 词 具有 明显 的 情感 极 性 。 对 于 
HowNet 无 法 判断 的 观点 词 ， 采用 该 词 与 襄 义 基准 词 
集 和 贬义 基准 词 集 的 关联 度 差 值 来 判断 ,公式 如 下 
所 示 : 


|pos 六 seed| 
Polarity(o) = 
i=] 


Ineg seed| 


hits(o, wi) 
hit(o)hit(w:;) 


hits(0, wij) 

(17) 

其 中 ，hits(o, wi) 表示 观点 词 与 讲义 基准 词 的 共 
现 频次 ，hit(o) 与 hit(w; ) 分 别 表 示 观 点 词 与 基准 词 单 
独 出 现 的 频次 。 若 Polarity(o) 的 绝对 值 接近 于 0， 表 示 
该 词 与 襄 义 词 和 贬义 词 关联 程度 基本 相同 ,情感 极 性 
不 明显 ; 若 该 值 显著 大 于 0， 则 该 观点 词 具有 明显 的 
情感 极 性 , 予以 保留 。 
3.8 ”特征 观点 对 配对 与 抽取 

由 于 观点 词 一 般 修饰 其 距离 最 近 的 特征 词 , 为 此 
可 以 考虑 将 特征 词 和 其 最 近 的 观点 词 进行 配对 并 抽取 
特征 观点 对 ,考虑 在 每 个 评论 片段 内 特征 词 和 观点 词 
可 能 会 出 现 一 对 一 、 一 对 多 、 多 对 一 等 表达 形式 ， 因 
此 定义 5 种 配对 模式 及 抽取 规则 ,具体 如 表 1 所 示 : 


表 1 特征 观点 对 抽取 模式 及 示例 


序号 评论 片段 配对 模式 抽取 结果 

1 屏幕 色彩 /T… 漂 亮 /O… TO ”( 屏 幕 色彩 , 漂亮 ) 
2 “… 合 理 /O 的 价位 /T… TO (价位 , 合理 ) 

… 音 质 / 和 界面 /T 都 很 (音质 , 不 错 )，( 界 面 ， 
》 不 错 /0… TOTTO 不 错 ) 

一 外 观 /T 漂亮 /0… 精 致 (外 观 , 漂亮 )，( 外 观 ， 
4 10.… TO+TO 精致 

… 优 雅 /0 而 小 巧 O 的 机 (机 型 ， 优 雅 )，( 机 型 ， 
5 型 T…. sb 小 巧 ) 


4 实验 与 结果 分 析 


4.1 语 料 来 源 及 预 处 理 

以 亚马逊 网 站 评论 为 实验 语 料 来 源 , 选择 Nokia 
手机 和 Canon 相机 有 效 评 论 (不 包括 重复 和 广告 评论 ) 
作为 实验 对 象 , 评论 日 期 截至 2014 年 12 月 , 分别 选择 
1 000 条 手机 评论 和 1 200 条 相机 评论 作为 实验 语 料 。 
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邀请 三 名 具有 信息 系统 研究 背景 的 成 员 参 与 标注 工 
作 , 两 名 成 员 对 实验 语 料 中 的 特征 词 和 观点 词 进行 标 
注 。 对 特征 词 进行 标注 时 ,要求 对 出 现 的 复合 特征 词 
作为 一 个 特征 词 标 注 , 同时 标注 出 所 有 特征 词 的 词性 ， 
当 标 注 结果 不 一 致 时 ,邀请 第 三 名 成 员 进 行 校 验 , 随 
机 抽取 50 条 语 料 计 算 Kappa 统计 量 (Cohen, 1960), 以 
检验 标注 结果 的 一 致 性 , 结果 显示 Kappa 值 约 为 0.81， 
表明 标注 一 致 性 结果 可 接受 。 实 验 语 料 的 统计 及 标注 
结果 具体 如 表 2 所 示 : 

表 2 实验 语 料 统计 结果 
手机 1000 2852 57.3 字 /条 278 244 1 764 
数码 相机 1200 4526 46.8 字 /条 309 327 2155 


4.2 ”实验 说 明 

对 实验 语 料 划分 评论 片段 , 再 调用 哈尔滨 工业 大 
学 语言 云 (LTP-Cloud) 的 开源 API 接口 ("生成 XML 文 
件 , 获取 评论 片段 的 分 词 、 词 性 标注 和 依存 句法 分 析 
结果 , 采用 Python Gensim 包 生 成 LDA 主题 模型 , 经 
过 实验 比较 , 选择 主题 K=12, 调节 参数 取 最 优 值 0.5。 
使 用 准确 率 (P)、 召 回 率 (R) 和 调和 平均 值 (F) 对 实验 结 
果 进 行 评价 ,为 使 算法 收敛 , 得 到 较为 准确 的 结果 , 将 
收敛 阔 值 设 为 10“， 即 当 相 邻 两 次 迭代 结果 之 差 小 于 
净值 时 算法 终止 。 
4.3 ”实验 结果 

(1) 特征 观点 提取 结 

按 置信 和 度 值 排序 , 分 别 得 出 手机 和 数码 相机 实验 
评论 语 料 中 前 10 个 特征 词 和 观点 词 ， 如 表 3 所 示 : 

表 3 产品 特征 观点 词 提取 结 


手机 数码 相机 


特征 词 (置信 度 ) 观点 词 (置信 度 ) 特征 词 (置信 度 ) 观点 词 (置信 度 ) 


外 观 (0.097692) 


屏幕 (0.092476) 
质感 (0.090291) 
功能 (0.088795) 
手写 功能 (0.086416 
性 价 比 (0.085824) 
手感 (0.085312) 
价格 (0.083047) 
品牌 (0.081091) 
款式 (0.079978) 


便宜 (0.057662) 
小 巧 (0.053501) 
实惠 (0.050207) 
精致 (0.048622) 
) 方便 (0.046619) 
漂亮 (0.042588) 


高 (0.040548) 
实用 (0.039778) 
简单 (0.038319) 


满意 (0.038088) 


功能 (0.108354) 
像素 (0.103563) 
屏幕 (0.099891) 
镜头 (0.098679) 
画 质 (0.097653) 
相片 (0.092835) 
色彩 (0.090178) 
T 格 (0.088546) 
单反 (0.087193) 
效果 (0.085649) 


清晰 (0.069875) 
不 错 (0.066367) 
简单 (0.063258) 
漂亮 (0.059324) 
喜欢 (0.057921) 
容易 (0.055346) 
好 (0.051789) 

满意 (0.050328) 
一 般 (0.049765) 
清楚 (0.048561) 


(2) 按 置信 和 度 模 型 抽取 结果 统计 
比较 不 同 阔 值 下 实验 数据 的 特征 观点 词 的 识别 精 
度 ， 最 终 确 定 候选 特征 词 和 候选 观点 词 的 置信 度 阔 值 ， 
其 结果 分 别 如 表 4 和 表 5 所 示 : 
表 4 特征 词 抽 取 结果 


类 型 ”置信 和 度 阅 值 抽取 特征 数 准确 数 ”准确 率 “召回 率 

手机 0.035 284 237 0.835 0.853 

相机 0.033 313 249 0.796 0.806 
表 5 观点 词 抽取 结果 

类 型 ”置信 和 度 阔 值 抽取 观点 数 准确 数 准确 率 ”召回 率 

手机 0.014 264 202 0.765 0.828 

相机 0.015 335 241 0.719 0.737 


4.4 ”对 比 实验 

为 了 验证 本 文 方法 的 有 效 性 , 选择 Aravindan 等 
和 Zhang 等 中 两 个 代表 性 的 研究 方法 (分 别称 为 方法 1 
和 方法 2)， 和 本 文 方法 ( 称 为 方法 3) 进 行 对 比 实验 ; 另 
一 方面 ， 基 于 本 文 方法 过 滤 策 略 设计 方法 4， 验 证 特征 
观点 过 滤 策 略 的 有 效 性 。 采 用 准确 率 、 召 回 率 、 调 和 
平均 值 作为 评价 指标 。 

(1) 方法 1 

抽取 实验 语 料 所 有 名 词 对 象 作 为 候选 特征 词 , 采 
用 Apriori 算 法 找 出 1 项 频繁 特征 集 和 2 项 频繁 特征 集 ， 
由 于 中 文 评论 中 较 少 出 现 3 项 及 以 上 频繁 特征 集 ， 
此 不 考虑 3 项 及 以 上 频繁 特征 集 。 参照 文献 [10], 设置 
项 集 最 小 支持 度 为 0.01， 置信 度 为 0.8。 采用 近邻 规则 
对 2 项 频繁 特征 集 进行 过 滤 , 采用 独立 支持 度 对 1 项 
频繁 特征 集 进行 过 滤 。 过 滤 后 , 得 到 所 有 特征 词 ， 抽取 
其 最 近 的 形容 词 或 动词 作为 观点 词 ,并 按 3.8 节 定 义 
模式 抽取 特征 观点 对 。 

(2) 方法 2 

采用 文献 2 中 提出 的 方法 , 利用 HITS 算法 排序 
抽取 特征 词 。 文 献 2] 中 没有 抽取 观点 词 , 因此 抽取 特 
征 词 最 近 的 形容 词 或 动词 作为 观点 词 , 并 按 3.8 节 定 
义 模式 抽取 特征 观点 对 。 

(3) 方法 3 

基于 本 文 置 信和 度 模 型 ， 设 置 阔 值 抽取 特征 观点 
集合 。 

(4) 方法 4 

在 方法 3 基础 上 ,应 用 3.7 节 过 滤 策 略 ， 进行 特 征 
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观点 的 再 过 滤 。 分 别 在 手机 和 数码 相机 实验 语 料 上 进 
行 对 比 实验 , 结果 如 表 6 和 表 7 所 示 : 
表 6 手机 数据 语 料 实验 结果 


页 特征 词 观点 词 特征 观点 对 


， R F P R F P R F 


0.727 0.736 0.731 0.704 0.714 0.709 0.672 0.668 0.670 
0.756 0.817 0.785 0.712 0.735 0.723 0.691 0.673 0.682 
0.835 0.853 0.845 0.765 0.828 0.795 0.734 0.756 0.745 
0.857 0.845 0.8S1 0.810 0.824 0.817 0.753 0.769 0.761 


一 


表 7 数码 相机 语 料 实验 结果 

特征 词 观点 词 特征 观点 对 

Iy R F Iy R F P R F 
0.693 0.702 0.697 0.668 0.683 0.675 0.615 0.652 0.633 
0.682 0.713 0.697 0.653 0.662 0.657 0.601 0.629 0.615 
0.796 0.806 0.801 0.719 0.737 0.728 0.695 0.701 0.698 
0.825 0.796 0.810 0.756 0.728 0.742 0.729 0.717 0.723 


通过 表 6 和 表 7 的 实验 对 比 结果 ,可 以 看 出 : 

(1) 经 过 两 组 语 料 的 实验 分 析 , 在 特征 词 和 观点 
词 的 抽取 效果 上 , 方法 3 都 优 于 两 组 基线 方法 , 说 明了 
本 文 方法 在 特征 词 和 观点 词 识别 上 的 有 效 性 。 

(2) 基线 方法 1 的 准确 率 和 召回 率 都 较 低 ， 说 明 使 
用 频繁 特征 词 方法 并 不 能 有 效 抽取 所 有 特征 词 ， 主 要 
原因 是 方法 1 采用 名 词 及 名 词 短语 作为 候选 特征 词 ， 
没有 考虑 语 料 中 的 动词 特征 词 的 抽取 ， 从 而 影响 了 特 
征 词 和 观点 词 的 抽取 准确 率 和 召回 率 。 

(3) 基线 方法 2 的 实验 结果 略 高 于 方法 1, 说 明 利 
用 HITS 算法 提取 特征 词 的 方法 具有 有 效 性 。 和 方法 3 
比较 , 方法 2 中 没有 考虑 关系 强度 和 语义 关系 等 因素 ， 
实验 效果 低 于 本 文 方法 , 说 明 关系 强度 和 语义 关系 对 
于 识别 候选 对 象 具有 一 定 效果 。 

(4) 采用 过 滤 策 略 的 方法 4 在 两 组 实验 语 料 上 均 
取得 较 高 的 准确 率 , 说明 特征 词 和 观点 词 的 过 滤 策 略 
具有 一 定 的 有 效 性 。 比 较 而 言 ， 观 点 词 的 准确 率 有 较 
大 提升 , 反映 出 利用 情感 极 性 进行 观点 词 过 滤 作 用 明 
显 。 同 时 ， 和 实验 3 相 比 , 两 组 语 料 的 召回 率 略 有 下 降 ， 
但 总 体 来 看 , 采用 过 滤 后 的 特征 观点 词 提 取 特 征 观 点 
对 , 能 取得 更 好 的 实验 准确 率 和 召回 率 。 


六 过 
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5 结 语 
面 对 海 量 的 在 线 评论 ， 如 何 克 服 其 口语 化 严重 、 
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表达 不 规范 的 特点 ， 有 效 识别 出 产品 特征 词 和 观点 词 
具有 重要 的 应 用 价值 , 可 以 应 用 于 电子 商务 、 与 情 监 
控 、 客 户 知识 管理 、 竞 争 情报 分 析 等 领域 。 本 文 基于 
相互 增强 关系 的 思想 , 利用 改进 HITS 算法 构建 置信 
度 排序 模型 抽取 中 文 评论 中 的 特征 词 和 观点 词 。 首 先 
考虑 动词 特征 词 抽取 策略 ， 避 免 动词 特征 词 的 遗漏 ， 
以 及 特征 词 识别 召回 率 不 高 的 问题 ,在 置信 度 计算 模 
型 中 , 本文 不 仅 考虑 候选 特征 词 和 候选 观点 之 间 的 共 
现 关 系 , 还 考虑 候选 特征 词 之 间 、 候 选 观 点 词 之 间 的 
语义 关系 。 以 手机 语 料 为 分 析 对 象 的 实验 结果 表明 ， 
综合 关联 关系 和 语义 关系 的 分 析 框 架 , 利用 置信 度 排 
序 模型 抽取 特征 词 和 观点 词 具 有 较 高 的 准确 率 , 具有 
一 定 的 有 效 性 。 

本 文 主要 考虑 的 是 显 性 特征 词 和 观点 词 的 识别 ， 
然而 , 在线 评论 中 还 包含 一 定数 量 的 隐 性 特征 词 ， 由 
于 篇 幅 原 因 , 并 未 对 隐 性 特征 词 的 提取 进行 讨论 , 后 
续 研 究 将 针对 这 一 问题 展开 。 


(致谢 : 本 文 研究 中 使 用 了 哈尔滨 工业 大 学 和 科大 讯 飞 股 
份 有 限 公 司 的 “哈工大 - 讯 飞 语言 云 " 接 口 , 在 此 表示 感谢 0) 
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Extracting Product Feature and User Opinion from Chinese Reviews 


Meng Yuan Wang Hongwei 
(School of Economics and Management, Tongji University, Shanghai 210000, China) 


Abstract: [Objective] This study proposed a confidence ranking model to extract product feature and user opinion 
from the Chinese online reviews. [Methods] Examining the semantic and association relations between candidate 
words, we built the confidence ranking model based on the improved HITS algorithm, and then retrieved the feature 
and opinion words. [Results] Compared with the reference model, our method showed better recall and precision rates 
while extracting the feature and opinion words from the Chinese corpus. [Limitations] Only extracted the explicit 
feature and opinion words, and did not try to ldentify and extract the implicit ones. [Conclusions] We could effectively 
extract the feature and opinion words using their mutual reinforcement and Semantic relations. Filtering method of the 
semantic polarity could also improve the precision of the extracted opinion words. 

Keywords: Confidence ranking HITS Association relation Semantic relation Mutual reinforcement 
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Wiley 与 Figshare 合作 促进 数据 共享 


John Wiley 国 际 出 版 公司 2015 年 6 月 宣布 与 位 于 伦敦 的 数据 存储 库 组 织 Figshare 建 立 合作 伙伴 关系 。 为 支持 有 意 公开 分 享 

其 数据 的 作者 , Wiley 已 经 着 手 与 合作 伙伴 Figshare 对 现 有 的 期 刊 工作 流程 和 文章 出 版 物 进 行 面向 数据 共享 的 整合 。 新 的 数据 

共享 服务 将 在 一 批 期 刊 中 进行 试点 ， 并 在 未 来 的 几 个 月 中 伴随 新 的 数据 引用 和 数据 共享 政策 逐步 推 开 。 这 将 确保 作者 和 读者 
可 以 在 知识 共享 许可 协议 下 免费 访问 、 共 享 和 复制 来 自 Wiley 在 线 图 书馆 文章 中 的 更 多 数据 。 

随 着 学 术 研 究 资助 者 对 数据 开放 和 可 获取 性 要 求 的 不 断 增 长 ， 提 供 合乎 规范 的 优化 工作 流程 服务 变 得 越 来 越 重要 。 这 种 
伙伴 关系 使 得 Wiley 作 为 学 术 内 容 传播 专家 在 增加 研究 曝光 度 的 同时 仍 能 继续 为 作者 提供 全 面 综合 的 发 布 服务 ， 也 使 得 
Figshare 能 够 提供 更 强大 的 数据 存储 和 引用 服务 。 

Wiley 之 前 做 过 一 项 关于 研究 者 的 需求 随 着 研究 进程 和 新 技术 的 发 展 而 不 断 变化 的 广泛 调研 。 随 着 研究 和 技术 的 融合 ， 
让 数据 可 以 被 人 类 和 机 融 同 时 阅读 的 需求 已 经 成 为 一 个 重要 的 新 兴 领 域 .数据 的 这 种 灵活 性 将 使 得 学 术 研 究 人 员 能 够 更 加 方 
便 地 使 用 它们 。 

Figshare 的 首席 执行 官 Mark Hahnel 说 :“ 在 以 前 脆性 思维 对 数据 进行 重要 投入 之 前 , Wiley 对 其 进行 了 深入 研究 。 这 一 做 
法 说 明了 学 术 界 不 断 变 化 的 特性 以 及 Wiley 对 其 作者 提供 世界 一 流 的 服务 的 承诺 。 由 于 学 术 信用 体系 的 发 展 , 我 们 想 要 保 
证 所 有 的 学 者 都 能 够 得 到 与 其 所 做 工作 相对 应 的 声望 。 这 种 合作 伙伴 关系 意味 着 在 Wiley 发 表 学 术 成 果 的 作者 将 享受 到 全 
面 的 益处 。” 

Wiley 负责 期 刊 编辑 发 展 的 副 总 裁 Liz Ferguson 指出 : “我 们 一 直 在 寻找 为 我 们 的 作者 提供 最 具 创 新 性 的 和 最 有 益 的 出 版 
体验 。 资 助 者 为 作者 增加 了 许多 必须 遵守 的 新 的 要 求 。 我 们 的 作者 服务 是 无 与 伦比 的 , 并 且 在 与 Figshare 合作 后 将 进一步 为 
在 Wiley 期 刊 中 发 布 成 果 的 学 术 研 究 人 员 提 升 服务 水 平 。” 

(编译 自 : http://www.wiley.com/WileyCDA/PressRelease/pressReleaseld-119082.html) 
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